大物体的操纵和安全地在人类附近进行安全操作的能力是通用国内机器人助手的关键能力。我们介绍了一种柔软,触觉的人形的人形机器人的设计,并展示了用于处理大物体的全身丰富的接触操作策略。我们展示了我们的硬件设计理念,用于使用软触觉传感模块,包括:(i)低成本,抗缝,接触压力定位的武器, (ii)基于TRI软气泡传感器的爪子,用于最终效应器,(III)柔顺的力/几何传感器,用于粗糙几何感测表面/胸部。我们利用这些模块的机械智能和触觉感应,为全身抓握控制进行开发和展示运动原语。我们评估硬件在实现各种大型国内物体上实现不同优势的掌握。我们的结果表明,利用富含接触的操纵策略的柔软度和触觉感应的重要性,以及与世界的全身力量控制的互动前进的道路。
translated by 谷歌翻译
我们提出了6D(种子)中系列弹性末端效应器的框架,其将空间兼容的元素结合在粘合性感觉中,以掌握和操纵野外的工具。我们的框架将串联弹性的益处推广到6- DOF,同时提供使用粘液触觉感测的控制抽象。我们提出了一种用于粘合性感测的相对姿势估计的算法,以及能够实现与环境的稳定力相互作用的空间混合力力位置控制器。我们展示了我们对需要监管空间力量的工具的效果。视频链接:https://youtu.be/2-yuifspdrk
translated by 谷歌翻译
The substitute-based recommendation is widely used in E-commerce to provide better alternatives to customers. However, existing research typically uses the customer behavior signals like co-view and view-but-purchase-another to capture the substitute relationship. Despite its intuitive soundness, we find that such an approach might ignore the functionality and characteristics of products. In this paper, we adapt substitute recommendation into language matching problem by taking product title description as model input to consider product functionality. We design a new transformation method to de-noise the signals derived from production data. In addition, we consider multilingual support from the engineering point of view. Our proposed end-to-end transformer-based model achieves both successes from offline and online experiments. The proposed model has been deployed in a large-scale E-commerce website for 11 marketplaces in 6 languages. Our proposed model is demonstrated to increase revenue by 19% based on an online A/B experiment.
translated by 谷歌翻译
我们研究Claire(一种差异性多形状,多-GPU图像注册算法和软件)的性能 - 在具有数十亿素素的大规模生物医学成像应用中。在这样的分辨率下,大多数用于差异图像注册的软件包非常昂贵。结果,从业人员首先要大量删除原始图像,然后使用现有工具进行注册。我们的主要贡献是对降采样对注册性能的影响的广泛分析。我们通过将用Claire获得的全分辨率注册与合成和现实成像数据集的低分辨率注册进行比较,研究了这种影响。我们的结果表明,完全分辨率的注册可以产生卓越的注册质量 - 但并非总是如此。例如,将合成图像从$ 1024^3 $减少到$ 256^3 $将骰子系数从92%降低到79%。但是,对于嘈杂或低对比度的高分辨率图像,差异不太明显。克莱尔不仅允许我们在几秒钟内注册临床相关大小的图像,而且还可以在合理的时间内以前所未有的分辨率注册图像。考虑的最高分辨率是$ 2816 \ times3016 \ times1162 $的清晰图像。据我们所知,这是有关此类决议中图像注册质量的首次研究。
translated by 谷歌翻译
FP8是加速深度学习训练推论以外的16位格式的自然发展。在本文中,我们提出了一个8位浮点(FP8)二进制互换格式,该格式由两个编码组成-E4M3(4位指数和3位Mantissa)和E5M2(5位指数和2位指数和2位Mantissa)。尽管E5M2遵循IEEE 754惯例代表特殊值的惯例,但E4M3的动态范围是通过不代表无限态,只有一个Mantissa Bit-Pattern来扩展NAN。我们证明了FP8格式对各种图像和语言任务的功效,从而有效地匹配了16位培训课程所达到的质量。我们的研究涵盖了主要的现代神经网络体系结构 - CNN,RNN和基于变压器的模型,使所有超参数与16位基线训练课程保持不变。我们的培训实验包括大型,最多175b参数,语言模型。我们还检查了使用16位格式训练的语言模型的FP8训练后定量化,该格式抗拒固定点INT8量化。
translated by 谷歌翻译
这项研究工作是关于语音识别的最新发展。在这项研究工作中,在存在不同的比特速率和不同噪声水平的情况下对孤立的数字识别的分析。这项研究工作是使用Audacity和HTK工具包进行的。隐藏的马尔可夫模型(HMM)是用于执行此实验的识别模型。所使用的特征提取技术是MEL频率CEPSTRUM系数(MFCC),线性预测编码(LPC),感知线性预测(PLP),MEL SPECTRUM(MELSPEC),FILLE BANK(FBANK)。已经考虑了三种不同的噪声水平来测试数据。这些包括随机噪声,风扇噪声和实时环境中的随机噪声。这样做是为了分析可用于实时应用程序的最佳环境。此外,考虑到不同采样率的五种不同类型的常用比特率,以找出最佳的比特率。
translated by 谷歌翻译
现实世界的面部表达识别(FER)数据集遭受吵闹的注释,由于众包,表达式的歧义,注释者的主观性和类间的相似性。但是,最近的深层网络具有强大的能力,可以记住嘈杂的注释导致腐蚀功能嵌入和泛化不良的能力。为了处理嘈杂的注释,我们提出了一个动态FER学习框架(DNFER),其中根据训练过程中的动态类特定阈值选择了干净的样品。具体而言,DNFER基于使用选定的干净样品和使用所有样品的无监督培训的监督培训。在训练过程中,每个微型批次的平均后类概率被用作动态类特异性阈值,以选择干净的样品进行监督训练。该阈值与噪声率无关,与其他方法不同,不需要任何干净的数据。此外,要从所有样品中学习,使用无监督的一致性损失对齐弱调节图像和强大图像之间的后验分布。我们证明了DNFER在合成和实际噪声注释的FER数据集(如RaFDB,Ferplus,Sfew和altimpnet)上的鲁棒性。
translated by 谷歌翻译
与更苛刻但准确的相关波函数理论相比,由于其成本准确性的权衡,近似密度功能理论(DFT)已成为必不可少的。然而,迄今为止,尚未确定具有通用精度的单个密度函数近似(DFA),从而导致DFT产生的数据质量的不确定性。通过电子密度拟合和转移学习,我们构建了DFA推荐使用者,该DFA选择以系统特异性方式相对于黄金标准但过度良好的耦合群集理论的DFA。我们在垂直旋转分解能量评估中证明了这种推荐的方法,用于具有挑战性的过渡金属复合物。我们的推荐人可以预测表现最佳的DFA,并产生出色的精度(约2 kcal/mol),可用于化学发现,表现优于单个传递学习模型和一组48 dFA中的单个最佳功能。我们证明了DFA推荐剂对具有独特化学的实验合成化合物的可传递性。
translated by 谷歌翻译
自动情感识别在许多领域都有应用,例如教育,游戏,软件开发,汽车,医疗保健等。但是,在野外数据集上实现可观的绩效是无琐的任务。野外数据集虽然比合成数据集更好地代表了现实世界中的情况,但前者遇到了不完整标签的问题。受到半监督学习的启发,在本文中,我们在第四次情感行为分析(ABAW)2022竞赛中介绍了提交的多任务学习挑战。在这项挑战中考虑的三个任务是价估计(VA)估计,表达式分为6个基本(愤怒,厌恶,恐惧,幸福,悲伤,惊喜),中立和“其他”类别和12个行动单位(au)编号au - \ {1,2,4,6,7,10,12,15,15,23,24,25,26 \}。我们的方法半监督的多任务面部情感情感识别标题为\ textbf {ss-mfar}使用一个深层残留网络,每个任务都具有特定任务分类器以及每个表达式类别的自适应阈值,每个表达式类别和半监督学习。源代码可从https://github.com/1980x/abaw202​​22dmacs获得。
translated by 谷歌翻译
静电执行器为创建软机器人板提供了一种有希望的方法,因为它们的柔性外形,模块化集成和快速响应速度。但是,它们的控制需要千伏信号,并理解由板上和环境效应的力相互作用引起的复杂动力学。在这项工作中,我们演示了一个不受限制的二维五实机压电机器人,该机器人由电池和板载高压电路提供动力,并通过无线链路进行控制。可扩展的制造方法基于彼此之间的键合化层(钢箔底物,执行器,柔性电子设备)。机器人表现出一系列可控运动,包括双向爬行(高达〜0.6 cm/s),转弯和现场旋转(约1度/s)。高速视频和控制实验表明,运动的丰富性是由于机器人中不对称质量分布的相互作用以及动力学对压电驱动频率的相关依赖性。
translated by 谷歌翻译